跨 学 科 视 角 下 基因 工程 领域 热点 交叉 主题 识别 及 主题 演化 分 析 
朱 世 琴 ! ” 范 丹 丹 。” 郭 田 十 
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摘 要 : 为 了 更 加 精准 把 握 交 叉 学 科研 究 热点 与 发 展 态势 ， 本 研究 提出 一 种 计算 主题 学 科 交 
又 度 的 方法 ， 并 结合 主题 强度 来 综合 识别 热点 交叉 主题 、 对 交叉 主题 未 来 发 展 进行 预测 。 本 
研究 选取 Web of Science 数据 库 2000-2019 年 基因 工程 领域 论文 进行 实证 分 析 ， 首 先 采 用 
LDA 模型 挖掘 主 题 ， 然 后 通过 计算 主题 强度 和 主题 学 科 交 叉 度 识别 热点 交叉 主题 ， 最 后 划 
分 时 间 窗口 ,绘制 主题 强度 及 主题 学 科 交 叉 度 的 变化 趋势 图 并 对 结果 展开 分 析 。 实 证 结果 表 
明 : 基因 工程 领域 共有 21 个 重要 主题 ， 其 中 7 个 热点 主题 ，14 个 学 科 交 叉 主题 ，2 个 热点 
交叉 主题 ; 根据 主题 强度 变化 趋势 ， 将 21 个 主题 划分 为 3 个 上 升 型 主题 ，7 个 下 降 型 主题 
和 11 个 平稳 型 主题 ， 大 部 分 主题 的 学 科 交 叉 程 度 呈现 上 升 趋势 。 
关键 词 : 学 科 交 又 主题 ;热点 主题 ,主题 识别 ; 主题 演化 
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Abstract: In order to more accurately grasp the hot spots and development trends of 
interdisciplinary research, this study proposes an integrated approach based on theme intensity and 
theme interdisciplinary degree to identify hot interdisciplinary themes and predict the future 
development of interdisciplinary themes. In this study, papers in the field of genetic engineering 
from 2000-2019 in Web of Science database were selected for empirical analysis. Firstly, themes 
were mined using LDA model, then hot interdisciplinary themes were identified by calculating 
theme intensity and interdisciplinary degree, and finally, time windows were divided to plot 
variation trend of theme intensity and interdisciplinary degree and the results were analyzed. The 
empirical results show that there are 21 important themes in the field of genetic engineering, 
including 7 hot themes, 14 interdisciplinary themes, and 2 hot interdisciplinary themes. According 
to the variation trend of theme intensity, the 21 themes are classified into 3 ascending themes, 7 
descending themes, and 11 stable themes, and the interdisciplinary degree of most themes shows 


an increasing trend. 
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引言 


1986 年 ， 诺 贝尔 基金 会 主席 在 颁奖 致辞 
之 间 ， 旧 的 学 科 界 限 已 在 各 个 方面 被 突破 ， 它 
连续 区 。 近 年 来 ， 一 系列 科学 发 现 、 科 技 创 新 成 果 广 泛 分 布 在 分 子 4 


些 等 六 
学 等 交 


科 叉 领 域 。 未 来 可 以 预见 ， 妊 


FE 国家 3 


跨 界 融合 将 成 为 常态 ， 并 不 断 俊 
学 科 交叉 主 是 


题 是 
知识 融合 的 汇聚 点 吕 、 知 识 扩 散 


生 新 学 科 前 沿 、 
两 个 或 多 个 学 科 在 相互 融合 、 渗 透 的 过 程 


的 枢纽 点 a、 也 是 实现 科技 创新 的 突破 点 @。 热 点 主题 是 


新 科技 领域 和 新 创新 形态 趾 。 


工作 者 在 某 段 时 间 保 持 高 度 关 注 并 展开 大 量 研究 的 如 
8 助 科研 工作 者 正 而 


点 及 演化 趋势 ， 能 够 直 


ja 


上 把握 现 实 动 


7 


科 重 点 外 。 目 
基因 工程 领域 为 例 ， 


: 子 


通 


握 交 又 学 科 发 展 态势 ， 发 掘 人 
1 相关 研究 回顾 
1. 1 学 科 交 又 主 题 识别 研究 


学 科 交 叉 主 题 的 识别 通常 采 


二 


前 ， 学 科 交 叉 研 究 主要 分 为 宏观 和 微观 两 个 方面 
过 LDA 模型 提取 主题 ， 提 出 


题 。 


过 


引文 分 析 法 、 词 汇 分 析 法 


(1) 引文 分 析 法 。 引 文 分 析 法 i 
分 析 对 象 间 的 引证 现象 进行 分 析 。 在 学 科 交 叉 主题 识别 领 
络 分 析 ， 发 现 主要 研究 
耦合 网 络 ， 来 识别 主题 
绘制 交叉 学 科 河 流 学 的 学 科 地 图 
究 主题 并 将 其 关联 到 主要 学 科 , 但 未 考虑 主题 


于 共 被 引 网 
t 


又 主题 。Chi R 等 m 基 


Adams 丁 等 g 在 艾 洲 


亢 


况 。P. Vugteveen 等 m 根 据 期 刊 引文 关系 ， 
] 文 献 的 相似 性 对 论文 进行 聚 类 获得 


引 
叉 程 度 。 


(2) 词汇 分 析 法 。 词 汇 分 析 法 以 文献 


通 六 


完 领 域 通 过 构建 书目 


两 种 方法 来 看 


词 分 析 


等 来 确 


词 矩 阵 发 现 两 个 学 科 
词 分 析 方法 ， 利 


在 该 


领域 的 交叉 研究 主题 。 
j 专 利 共 词 聚 类 和 战略 坐标 图 


2 > 
安土 
CN 


太 


在 基因 


题 


领域 . 利 


E 物 学 、 物 理 


， 形 成 的 


表示 : 在 物理 学 和 化 学 之 间 、 生 物 学 和 
门 不 仅 互相 交叉 ， 而 且 形 成 了 没有 鲜明 界 


化 学 、 


1] 


tk 同 研究 主题 ， 


和 


医学 
限 的 
系统 


大 战略 需求 的 驱动 下 ， 多 学 科 交 又 会 察 与 多 技术 


日 
候 


科学 方法 识别 研 


， 透 视 学 科 发 展 和 学 术 进 


和 
究 热 


主题 学 科 交 又 度 的 测度 方法 ， 并 结 
题 强 度 指标 识别 热点 交叉 主题 ; 定量 分 析 领 域内 主题 强度 及 交叉 度 变化 趋势 特征 ， 有 助 于 把 


新 性 的 研究 方向 和 主 


和 主题 模型 法 
常 基于 引用 关系 ， 对 期 刊 、 文 献 、 


进行 。 


主题 、 


作者 等 


成 ， 也 


可 以 


] 引文 分 析 法 来 识 


题 聚 


和 知识 流 ， 并 


定 学 科 交 叉 主 题 , 将 社会 网 络 分 析 方 法 与 时 间 序 列 分 析 方 济 
演变 。 学 者 杜 丽 君 避 以 情报 学 和 计算 机 科学 中 与 信息 检索 相关 的 论文 进 


的 词汇 作为 分 析 对 象 ， 主 要 采用 词 频 统 计 和 共 
究 热点 主题 。Xu 等 0 中 以 情报 学 为 例 ， 通 过 计算 TI 值 


、Bet 值 、 词 


工程 疫苗 领域 ， 隐 苓 加 


在 
识 


TS 


题词 


现 网 络 表征 知识 网 络 ，3 
破 了 


主题 。 


(3) 主题 模型 法 。 应 
LDA 模型 等 。 


到 学 科 交 叉 主 题 识别 


主题 模型 的 核心 计算 问题 就 是 利 月 


结构 烂 对 知识 网 络 状 态 进 


别 技术 主 


从 


题 及 


了 测 


k 相 结合 


来 分 析 学 科 交 
了 研究 , 通过 建 


等 学 者 


一 个 


发 展 ] 


现状 ， 罗 瑞 


步 ， 厘 ; 


采用 


Rc = 
清 学 


四 ， 本 文 将 从 微观 的 角度 ， 以 


公主 


四 天 到 


各 类 


别 交 


FE 题 的 发 展 以 及 它们 之 间 的 关系 。 
内 容 、 确 定 主 


类 情 


频 值 
又 的 


寺 攻 


SS 


立 


以 主 


度 , 以 便 进一步 识别 科学 突 


的 主题 模型 主要 
可 视 的 文档 来 推断 划 


有 CTM 模型 、AT 模型 、 


巡 含 的 主题 结构 中 。 


潜在 狄 利克 雷 分 配 模型 (Latent Dirichlet Allocation, LDA ) 是 由 D.Bleins 在 2003 年 提 
种 常见 的 主题 模型 ， 在 主题 识别 领域 应 
究 了 混 


程度 较 高 的 文献 ， 运 月 
题 的 学 科 交 叉 度 。 


_ 
后 | 


全 
日 


利用 LDA 


1. 2 学 科 交 叉 态 势 演 化 研究 


学 科 允 叉 而 


(1) 期 刊 为 
的 差异 性 。 备 祥 保 2 对 
合 现状 ? 发 现 其 知识 来 源 与 应 


究 在 国内 外 学 术 界 引 
蓬勃 发 展 阶段 ， 其 研究 对 象 主要 是 期 
究 对 象 。Silvan”、 


咱 和 学 科 领 域 。 


广泛 ， 例 如 : 张 斌 09 运 
学 科研 究 主 题 的 形成 。 陈 琼 等 "” 
随后 引入 DIV 测度 指标 比较 学 科 交 又 态势 。 韩 正 琪 等 (4 使 用 Rao-Striling 指标 发 现 学 科 
LDA 模型 获取 纳米 科技 领域 的 高 学 科 交 叉 文 献 的 研究 3 


起 了 广泛 的 关注 与 讨论 ,学 科 交 又 态势 演化 下 


出 的 一 
] LDA 模型 从 聚 类 角度 探 
j 分 医学 信 


模型 识别 和 蕊 息 学 领域 主题 ， 
交叉 


FE 题 ， 但 未 考 


究 正 处 


Leydesdorffpzo 等 学 者 通过 构建 引文 网 络 来 衡量 学 科 间 


国外 图 书 情 报 学 核心 期 刊 进行 胡 


yp 


并 分 析 了 六 个 3 


证 两 个 角度 切入 五 
他 学 科 间 的 交叉 副 


《2) 学 科 领 域 为 


究 对 象 .Carley 和 Porter24 使 月 


题 类 


又 程 
[1 2000 年 ) 社会 科学 引文 索引 〈SSCI) 类 别 
域 为 分 析 对 象 , 揭示 领域 内 核 , 
的 关联 及 演变 情况 ， 了 解 人 了 
析 法 以 及 学 科 多 样 必 


年 科 


化 进行 了 大 量 


硬 


析 法 
用 在 
尚未 有 和 
于 完 3 


另 


| 的 论文 集 的 引文 模式 。 研 究 发 现 数学 学 科 交 叉 性 很 低 ， 而 


度 很 高 ， 揭 示 了 学 科 之 间 整 合 的 趋势 。Levitt 等 oa 分 析 了 三 个 特定 名 


。R.Agarwalc、 杨 瑞 仙 中 均 以 
究 ， 前 者 证 实 了 信息 系统 学 科 边 界 在 不 断 扩 展 , 后 


h 合 情况 。 


书 情报 学 学 科 交 叉 融 


| 


罕 国 外 轿 
期 刊 为 研究 对 象 ， 从 参考 和 引 


者 研究 了 图 情 学 科 和 


究 ，] 


情 


日 Rao 多 样 性 作为 学 科 交 叉 的 度量 标准 ， 
医学 学 科 交 


FE 份 (1980 年 ，1990 


心 学 科 类 别 分 布 情况 ， 


学 科 间 的 演变 。 曹 嘉 君 等 ca 以 人 工 


领 


智能 


并 通过 计算 各 学 科 相 似 怕 


FE 得 到 学 科 之 间 


[智能 领域 内 各 学 科 的 发 展 态势 。Deng 和 Xiae7 采 用 社会 网 络 分 
测度 方法 ， 研 究 发 现 信息 行为 领域 内 的 学 科 分 布 不 均衡 。 
综 上 所 述 ， 国 内 外 学 者 们 从 学 科 、 期 刊 等 角度 ， 对 交叉 学 科 主 题 识别 、 学 科 交 叉 态势 演 


占 


自 


[yy 


医学 信 ， 


有 成 效 的 研究 。 利 月 
的 滞后 性 以 及 传统 的 共 词 分 析 法 无 法 
学 、 纳 米 科 技 等 学 科 领 域 ， 


其 适 月 


究 将 


> 


题 ， 


结合 3 


应 有 


于 基因 
FE 题 强度 和 本 文 提 


题 的 变化 趋势 。 
2 研究 设计 与 方法 


2.1 


研究 框架 
为 识别 基因 


首先 ， 获 取 来 源 于 Web of Science 基 


扩展 学 科 交 叉 态 势 演 化 研究 的 下 


工程 领域 热点 交叉 主题 并 进行 主题 演化 分 析 , 提出 研究 框架 设计 如 图 
程 领域 的 论文 集 ， 对 数据 进行 去 重 


值 、 统 计 词 频 、 去 停 有 


关键 词 (ID ) 作为 了 


FE 题 识别 而 


主题 模型 法 进行 主题 识别 ,可 
体现 词 对 间 语 义 关联 的 人 
于 交叉 学 科 领 域 的 可 行 性 得 以 充分 证 明 , 但 
工程 领域 。 故 本 文选 取 和 外 
出 的 主题 学 科 交 叉 度 的 计生 


以 一 定 程度 上 克服 引文 分 
央 陷 , 并且 主题 模型 法 已 运 


潜在 语义 信息 的 LDA 模型 提取 
方法 ， 识 别 热点 交叉 主题 。 并 


E 够 分 刷 


究 对 象 ， 以 基 


因 


工程 领 


域 为 研究 对 象 , 探析 该 领域 交叉 主 


因 了 


完 的 语 料 来 源 。 


次 ， 


词 等 操作 ， 用 Python 自然 语言 提取 文献 的 作者 关键 词 (DE) 和 扩 


1 所 示 。 
除 缺 失 


展 
昨 ， 计 


| 


删 


日 


利用 LDA 主题 模型 进行 主题 挖 


算 主 题 强度 和 主题 学 科 交 叉 度 并 确定 阔 值 ， 根 据 二 者 阀 值 识别 热点 交叉 主题 。 最 后 ， 从 主题 
强度 和 主题 学 科 交 叉 度 两 个 方面 进行 主题 分 类 和 演化 趋势 呈现 , 并 结合 为 主题 发 展 做 出 贡献 
的 学 科 类 别 ， 对 主题 发 展 态势 做 出 合理 分 析 。 


rd 


热点 学 科 交 叉 主 
题 识 别 


学 科 交 叉 演 化 态势 及 预测 


2. 2 研究 方法 
2.2.1 基 于 LDA 模 型 的 热点 交叉 主题 识别 方法 

本 研究 采用 LDA 主题 模型 用 于 基因 工程 领域 主题 研究 具有 明显 优势 : 面 对 数 据 量 庞大 
的 基因 工程 领域 文献 ，LDA 主题 模型 方法 展现 了 强大 的 文本 处 理 能 力 ， 能 够 使 用 计算 机 语 
言 实现 对 文献 的 作者 关键 词 和 扩展 关键 词 进行 主题 挖掘 ,提取 表现 力 更 强 的 特征 词汇 ， 更 加 
精准 地 挖掘 基因 工程 领域 主题 LDA 主题 模型 最 大 的 优势 是 将 主题 挖掘 与 主题 演化 相 结合 ， 
在 获取 主题 的 同时 还 可 以 分 析 主 题 的 演化 趋势 ， 把 握 领 域 的 研究 方向 。 

(1) 基于 LDA 模型 的 主题 挖掘 

首先 对 经 过 预 处 理 的 语 料 创 建 词语 词典 , 对 每 个 单独 的 词语 赋予 一 个 索引 , 使 用 创建 的 
词典 ， 将 文档 列表 转化 成 矩阵 ， 其 次 使 用 Gensim 模型 来 建立 LDA 模型 对 象 ， 并 根据 计算 
困惑 度 获 得 最 优 主题 数 K, 之 后 在 矩阵 上 运行 并 训练 LDA 模型 ， 输 出 主题 -词语 概率 分 布 矩 
阵 , 各 词语 按照 频率 依次 从 大 到 小 输出 , 选取 每 个 主题 下 概率 排 在 前 10 的 词汇 代表 该 主题 ， 
再 结合 其 他 输出 词汇 对 主题 进行 标识 ， 在 此 过 程 中 生成 文档 -主题 概率 分 布 矩 阵 及 主题 - 词 项 

(2) 主题 强度 测度 

热点 主题 挖掘 及 主题 演化 可 以 通过 计算 主题 强度 衡量 , 主题 强度 可 以 反映 主题 的 重要 程 
度 和 关注 程度 , 它 通过 比较 在 相同 时 间 窗 口 下 不 同 主题 的 主题 强度 来 挖 气 热点 主题 , 分 析 同 
一 个 主题 在 连续 、 不 同 的 时 间 窗 口 下 的 主题 强度 变化 揭示 主题 演化 特征 趋势 。 主题 强 度 通过 


词汇 可 能 出 现 的 概率 进行 计算 ， 词汇 分 布 概率 是 在 LDA 主题 模型 下 通过 上 下 文 语 境 抽取 。 
主题 强度 计算 主要 通过 构建 的 文档 -主题 概率 分 布 矩 阵 获 得 每 个 主题 由 每 篇 文档 生成 的 概率 。 


Dt d 
表 Za =1 8: 


0 F (D 


之 也 
式 中 ， 人 :表示 t 时 间 段 的 主题 强度 ， 取 主题 后 验 概率 平均 值 获得 ，64 表 示 主 题 z 占 文档 
d 的 比例 ，Dt 表 示 在 t+ 时 间 段 的 文档 数量 。 
计算 出 每 个 主题 的 主题 强度 后 ， 确 定 一 个 阔 值 以 便 筛 选 出 关注 度 较 高 的 主题 。 关 于 主题 
强度 闵 值 的 确定 ， 本 文采 用 吴 查 科 等 R83 提 出 的 主题 强度 闵 值 计算 方法 ， 计 算 公 式 如 下 : 
T -到 区 和 O) 
Dit K 
式 中 , TT 为 主题 强度 闵 值 ，K 表示 主题 的 个 数 ，D! 表 示 文 本 集合 ， 当 主题 强度 大 于 阔 值 
工时 ， 可 以 判断 该 主题 为 当前 时 间 窗 口 的 热点 主题 。 
(3) 主题 学 科 交 叉 度 测度 
根据 构建 的 公式 对 主题 的 学 科 交 叉 度 进行 测度 。 主 要 思路 为 在 得 到 文档 -主题 概率 分 布 
矩阵 后 ， 获 得 每 个 主题 下 包含 的 文档 集 ， 并 计算 出 每 篇 文档 的 学 科 交 叉 度 ， 本 文采 用 
Rao-Stirling 指标 作为 学 科 交 叉 综 合 测度 指标 ， 在 文中 简称 为 人。R 指标 从 多 样 性 、 均 衡 性 及 
差异 性 综合 测度 单 篇 论文 学 科 交 叉 程 度 。 若 一 篇 论文 参考 文献 所 属 学 科 类 别 非常 相似 ， 则 该 
论文 学 科 交 叉 程 度 较 低 ， 反 之 ， 则 越 高 。 
NW @) 
其 中 px 表示 学 科 i 的 被 引 频 次 占 所 有 学 科 总 被 引 频 次 的 比例 , Si 表示 学 科 i 和 学 科 j 的 
相似 性 程度 矩阵 中 学 科 x 和 学 科 j 之 间 的 相似 性 。 
本 文 提 出 主题 学 科 交 叉 度 的 计算 方法 , 根据 一 个 主题 下 所 有 文档 的 学 科 交 叉 度 的 均值 确 


定 该 主题 的 学 科 交 叉 度 。 


i (4) 

式 中 ，Rt 表 示 第 t+ 个 主题 的 学 科 交 叉 度 ，m 表示 主题 包含 的 文档 数 ，R; 是 第 i 篇 文档 的 

学 科 交 叉 度 。 

计算 出 每 个 主题 的 主题 学 科 交 叉 度 后 , 确定 一 个 阔 值 以 便 筛选 出 学 科 交 叉 度 较 高 的 主题 ， 
计算 公式 如 下 : 


二 (5) 
式 中 ，I 为 主题 学 科 交叉 度 阔 值 ，K 表示 主题 的 个 数 ，Rt 表 示 第 t+ 个 主题 的 学 科 交 叉 度 。 
2. 2. 2 主题 演化 趋势 分 析 方 法 
主题 演化 趋势 分 析 包 括 主题 强度 变化 趋势 分 析 和 主题 学 科 交 叉 度 变化 趋势 分 析 。 现 有 而 
究 29 根 据 引 入 时 间 方 式 的 不 同 ， 归 纳 出 三 种 不 同 演化 方法 ;Joint 法 、 先 离散 分 析 法 、 后 离 
散 分 析 法 。 本 研究 采用 后 离散 分 析 (Post-discretized Analysigs) 。 这 种 方法 首先 忽略 了 时 间 ， 


将 整个 文本 集 作 为 分 析 文 本 ， 通 过 LDA 主题 模型 获得 的 主题 - 词 项 概率 分 布 第 阵 以 及 文档 - 
主题 概率 分 布 矩 阵 ， 将 文档 按照 其 所 属 时 间 离 散 到 各 时 间 窗 口 ， 最后， 通过 公式 〈1) 依次 
计算 各 主题 在 连续 时 间 窗 口 下 的 主题 强度 ， 通 过 强度 上 升 和 下 降 趋 势 对 主题 进行 类 别 划分 。 
3 实证 研究 

为 了 挖掘 基因 工程 领域 的 热点 交叉 主题 并 进行 主题 演化 分 析 , 本 文 计算 获取 了 各 个 主题 
的 主题 强度 和 学 科 交 叉 度 变化 趋势 ， 展 开 了 实证 研究 。 

3. 1 数据 采集 与 处 理 

研究 数据 来 源 于 Web of Science 的 基因 工程 领域 , 检索 策略 如 表 1 所 示 。 对 数据 进行 去 
重 、 删 除 无 效 内 容 等 操作 后 ， 最 终 共 得 到 51,954 条 文献 。 

表 1 文献 检索 策略 
检索 策略 内 容 


TI=( “genek engineering” or “DNA engineering” or “gene* 


让 


漠 


manipulat*” or “DNA manipulat*” or “gene* recombinat*” or 
检索 式 “transgen*” or “gene* clon*¥” or “molecular clon*”) or 


AK=(“gene* engineering” or “DNA engineering” or “gene* 


manipulat*” or “DNA manipulat*” or “gene* recombinat*” or 


“transgen*” or “gene* clon*¥” or “molecular clon*”) 


来 源 数 据 库 SCI-Expanded 数据 库 
文献 类 型 Article 

语种 不 限 

起 止 时 间 2000-2019 


其 次 用 Python 自然 语言 提取 文献 的 作者 关键 词 (DE) 、 扩 展 关 键 词 (ID ) 、 学 科 、 发 
表 时 间 、 标 题 、 摘 要 等 作为 待 分 析 文 本 保存 。 再 次 对 待 分 析 文 本 进行 词 频 统计 ， 根 据 统计 结 
果 对 不 具有 区 分 度 的 高 频 词 及 无 意义 干扰 词 进行 删除 、 对 同义词 进行 合并 、 去 停 用 词 、 对 拥 
有 不 同 词性 的 词语 进行 词 形 还 原 。 

3. 2 热点 交叉 主题 识别 

(1) 主题 抽取 

本 文 使 用 Gensim 模型 来 建立 LDA 模型 对 象 ， 并 根据 计算 困惑 度 获得 最 优 主题 数 K， 
2000 年 至 2019 年 不 同 主题 数目 下 困惑 度 分 布 曲线 如 下 图 2 所 示 ， 当 困惑 度数 值 波动 趋 于 平 
绥 处 于 较 小 值 , 或 出 现 较 为 明显 的 拐点 时 ， 则 该 拐点 代表 主题 模型 的 拟 合 程度 最 好 ， 主题 提 
取 效 果 最 佳 ， 因 此 ， 确 定 K 值 为 21。 


400 
350 
300 
tH 1250 
御 1200 
1150 
100 
050 
000 
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图 2 基因 工程 不 同 主题 数目 下 困惑 度 分 布 曲线 
对 语料库 运行 并 训练 LDA 模型 ， 在 此 过 程 中 生成 文档 -主题 概率 分 布 矩 阵 及 主题 - 词 项 
概率 分 布 秆 阵 。 输 出 主题 - 词 项 概率 分 布 第 阵 ， 主 题 下 的 特征 词 按 对 主题 的 定义 程度 从 大 到 
小 排序 ， 在 该 主题 下 的 分 布 概率 越 高 ， 其 位 置 越 靠 前 ， 选 取 每 个 主题 下 概率 排 在 前 10 的 关 
键 词 代 表 该 主题 ， 部 分 主题 如 图 3 所 示 ， 本 研究 共 归 纳 总 结 出 21 个 主题 


pl 


0.066* "protein" 0.067* "system" 0.031* "per" 

0.062” "identification" 0.024* "adaptation" 0.017* "gene flow" 

0.031” "pathway" 0.018* "dynamic" 0.015* "bt com" 

0.023* "sequence" 0.013* "biology" 0.011* "food" 

0.022* "bind" 0.013* "hormone" 0.010* "nutrition" 

0.022* "transcription" 0.012* "genetic manipulation" 0.009* "triticum aestivum" 

0.017* "promoter" 0.012* "growth hormone" 0.009* "pollen" 

0.015* "evolution" 0.008* "transgene" 0.009* "tgf beta" 

0.012” "messenger rna" 0.006* "luteinizing hormone" 0.008* "cold tolerance" 

0.010* "peptide" 0.006* "medicine " 0.008* "cold acclimation" 
开拓 的 术 7T5 风 种 时 证 及 

0.040* "molecular clon" 0.108* "alzheimer disease" 0.039* "cancer" 

0.037* "biosynthesis" 0.062* "oxidative stress" 0.024* "breast cancer" 

0.037* "purification" 0.054* "amyloid precursor protein” 0.018* "transport" 

0.035* "Escherichia coli" 0.016* "neurodegeneration" 0.013* "reveal” 

0.033” "gene clon" 0.014* "hippocampus" 0.013* "epigenetic inheritance" 

0.025” "clon" 0.014* "neuron" 0.012” "tumor" 

0.025” "accumulation" 0.012* "pathology" 0.011” "assay" 

0.022* "protein" 0.010* "central nervous system" 0.011* "gene family" 

0.013* "cdna" 0.010* "tau" 0.009* "beta catenin" 

0.011* "sequence” 0.010* "superoxide dismutase" 0.007* "growth" 


0.023* "antibody" 0.018* "animal models" 0.015* "activation" 

0.019* "vaccine" 0.018* "synaptic plasticity” 0.014* "phenotype”" 

0.016” "transgene expression" 0.017* "antioxidant" 0.014* "calcium" 

0.015” "antigen" 0.016* "blood pressure" 0.013* "endothelial cell" 
0.013” "association" 0.015* "behavior" 0.013* "recognition" 

0.011* "growth factor" 0.014* "nitric oxide" 0.011* "muscle" 

0.010* "encode" 0.014* "brain" 0.011* "cerebrospinal fluid" 
0.009* “resistant” 0.011* "knockout rat" 0.010* "atherosclerosis" 
0.009* "immunization" 0.010* "huntington disease” 0.009* "fibroblast" 

0.009* "immunogenicity" 0.009* "neural stem cell" 0.008* "angiotensin ii" 


图 3 基因 工程 领域 的 主题 - 词 项 分 布 ( 部 分 ) 
(2) 主题 强度 和 主题 学 科 交 叉 度 测度 


通过 计算 主题 强度 和 主题 学 科 交 叉 度 ,本文 对 2000 年 至 2019 年 各 个 主题 的 主题 强度 和 
主题 学 科 交 叉 度 进行 比较 分 析 ， 如 表 2 所 示 。 
表 2 基因 工程 领域 各 主题 的 强度 及 学 科 交 叉 度 
主题 主题 
序号 主题 ”学 科 交 叉 度 ”序号 主题 ”学 科 交 又 度 
强度 强度 
0.081 0.3728 0.060 0.3944 
T1 ”转录 组 测序 技术 , T12 ”转基因 动物 
0.026 0.4201 0.034 ” 0.4298 
T2 ”转基因 药物 T13 ”基因 疗法 
6 3 
0.033 0.4157 0.047 0.4244 
T3 ”转基因 作物 ] T14 ”生物 遗传 
| 0.072 ”0.3512 0.065 ”0.2599 
T4 ”基因 克隆 技术 15 ”植物 抗 病 性 . 
0.072 ”0.4578 0.038 0.3642 
T5 ”阿尔 芯 海 默 症 T16 ”植物 修复 技术 0 
0.038 0.4164 0.050 0.4355 
T6 ”肿瘤 17 ”细胞 凋 亡 
3 9 
0.043 0.4095 0.040 ”0.4339 
T7 疫苗 T18 ” 肌 萎 缩 侧 索 硬化 症 
0.038 0.4587 0.035 ”0.3857 
T8 。” 突 触 可 塑性 T19 ”生物 多 样 性 保护 
_ 0.041 0.4487 0.042 ”0.4409 
T9 。 动脉 弦 硬 化 疾病 T20 ”生物 体 免疫 反应 
0.035 0.4334 0.066 0.2089 
T10 ， 额 颗 疾 呆 证 2 T21 ” 非 生物 胁迫 
0.036 0.4280 
T11 ”植物 抗 虫 性 
通过 计算 得 到 基因 工程 领域 主题 强度 阔 值 为 0.0476， 获得 7 个 热点 主题 , 分 别 是 “转录 
组 测序 技术 ”“ 基 因 克 隆 技术 ”“ 阿 尔 将 海 默 症 ”“ 转 基因 动 物 研究 ”“ 植 物 抗 病 性 ”“ 


得 14 个 学 科 交 又 
6 疫苗 39 
“生物 遗传 ” 


主题 ， 


4 乡 胞 凋 


“ 突 触 可 塑性 ” 


胞 凋 亡 ”和 “ 非 生物 胁迫 ”。 通 过 计算 得 到 基因 


分 别 是 “ 


De 
™ 


它们 既是 学 科 交 叉 主 题 


, 主题 强度 与 主题 


“动脉 粥 硬化 疾病 ” 
“ 肌 萎 缩 侧 索 硬化 症 
学 科 交 又 度 均 超 过 闵 值 的 主 


也是 热点 主题 ， 为 热点 交叉 3 


转基因 


药物 ?9 


“转基因 


作物 ” 


6 额 


mh 


矣 


病 呆 症 ” 


~ 
3 


“基因 


厅 


”和 “生物 体 免疫 反应 ”。 


让 


题 ， 


如 图 4 所 示 。 


题 有 “细胞 凋 亡 ”与 “阿尔 茨 海 默 证 


工程 领域 主题 学 科 交 叉 度 阀 值 为 0.3995， 获 
“阿尔 茨 海 默 证 ” 
“植物 抗 虫 性 


“肿瘤 ?9 
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el 学科 交叉 度 NN 主题 强度 ee 学 科 交 义 度 闵 值 一 一 主题 强度 阔 什 


图 4 主题 强度 及 学 科 交 叉 度 分 布 图 
3. 3 主题 演化 与 分 析 
以 年 为 单位 , 获得 文档 所 属 年 份 , 计算 出 在 连续 的 时 间 窗 口内 各 个 主题 的 主题 强度 值 及 
主题 学 科 交 叉 度 值 ， 分别 绘制 基因 工程 主题 强度 和 主题 学 科 交 叉 度 变化 趋势 图 .。 通过 观察 各 
个 主题 在 连续 时 间 窗 口 下 的 主题 强度 及 主题 学 科 交 叉 度 的 变化 情况 ,总结 主 题 演化 特征 , 将 
各 个 主题 归结 为 上 升 型 主题 、 下 降 型 主题 和 平稳 型 主题 。 


上 TS T21 工 11 
天 Mw AAA 
型 At AN 
Tl T3 工 7 T9 
降 
型 工 10 T13 nw 
T2 T4 T6 T8 
下 次 人 en ep A A 
稳 
型 T12 T14 工 13 工 16 


图 5 基因 工程 


E 题 强度 和 主题 学 科 交 又 度 变化 趋势 图 


主题 “TS 阿尔 茨 海 默 症 ”与 “TI17 细胞 凋 亡 ”， 它 们 既是 学 科 


从 图 5 可 以 看 出 ， 除 “T21 非 生物 胁迫 ”人 外， 
工程 研究 领域 ， 主 题 的 学 科 交 叉 性 正 变 得 越 来 越 强 ， 


基因 


强度 在 不 断 增 加 ，7 个 主题 的 强度 呈现 出 下 降 趋势 ， 其 余 11 个 主题 的 强度 变化 较 小 ， 


稳 趋 势 。 通 过 主题 强度 变化 趋势 将 主题 分 为 上 升 型 主题 、 下 降 型 主题 也 


题 学 科 交 叉 度 ， 对 重点 主题 进行 分 析 。 

(1) 上 升 型 主题 
图 5 显示， 上升 型 主题 有 3 个 ， 分 另 
“T21 非 生物 胁迫 ”为 热点 下 


物 胁迫 。 


20 年 间 “T5 阿尔 茨 海 默 症 ”主题 强度 


仍 属 于 看 
年 下 降 ， 


度 也 呈现 平稳 上 升 趋势 , 表明 越 来 


杂 性 和 综合 


数量 逐渐 上 升 ， 


与 进来 。 


其 中 ， 


上 是 T5 阿尔 获 海 默 症 、T11 植物 抗 虫 性 和 T21 非 生 
“TS 阿尔 欧 海 默 症 ” 为 热点 交叉 主 


(2) 下 降 型 主题 


2000 到 2019 重 
、T9 动脉 粥 硬化 疾病 、T10 额 杜 
“Tl 转录 组 测序 技术 ”为 热点 主题 ， 


下 


化 疾病 ”、 
4 下 7 疫苗 399 


本 


在 人 类 不 
随 着 科学 技术 


研发 技术 也 在 不 断 完善 。 
2017 年 出 现 明 显 拐点 ， 


点 分 析 如 下 : 


阿尔 菊 海 默 证 主题 强度 仍然 会 不 断 上 升 ， 其 看 


E 间 ，7 个 下 降 型 主题 包括 : Tl 转录 组 测序 技术 、T3 转基因 作物 、T7 疫 
痴呆 症 、T13 基因 疗法 和 T19 生物 多 样 性 保护 。 其 中 ， 
“T3 转基因 作物 ”、 


“T10 额 里 痴呆 症 ” 和 “T13 基因 疗法 ”为 学 科 交 勾当 


断 和 疾病 斗争 的 历史 中 ， 疫 苗 接 种 是 有 效 消灭 和 控制 
的 发 展 ， 针 对 各 类 疾病 的 疫苗 被 研发 了 


46 T7 


其 他 主题 学 科 交 叉 度 基本 呈现 上 升 趋势 ， 在 


跨 学 科 合作 愈加 明显 。3 个 主题 的 


素 、 诊 断 及 治疗 。 


交叉 主题 也 是 热点 主题 。 


旦 第 


平稳 型 主题 , 综合 主 


荆 


直 很 高 ， 总 体 呈 现 上 升 趋势 ， 说 明 该 主题 目前 
究 热点 ， 受 到 学 者 们 的 高 度 关注 。 尽 管 主题 强度 分 别 在 2004 年 、2009 年 、2010 
但 下 降幅 度 不 大 ， 并 于 次 年 及 时 回升 ， 并 未 影响 整体 上 升 趋势 。 该 主题 的 学 科 交叉 
战 多 的 学 科 参 与 到 阿尔 次 海 默 症 的 
科 分 析 发 现 ，Neurosciences 和 Biochemistry & Molecular Biology 对 该 主题 
前 ， 阿 尔 茨 海 默 症 的 研究 主要 包括 : 发 病 机 制 、 和 危险 因 
人 性， 需要 打破 学 科 壁 垒 进行 多 学 科 协 同 合作 , 可 以 合理 预测 未 来 随 着 老龄 化 人 口 
究 热度 也 必 将 带动 更 多 学 科 参 


完 当 中 , 结合 具体 学 
完 贡 献 显著 。 目 


这 些 研 究 问题 的 复 


疫苗 ” 、 “T9 动脉 粥 硬 


E 题 。 选 择 学 科 交 叉 主 题 


传染 性 疾病 的 有 效 手段 。 


H 来 ， 如 乙肝 疫苗 、 狂 犬 病 疫 苗 等 ， 其 


疫苗 的 主题 强度 在 2001 年 达到 襄 峰 ， 随 后 呈 波 折 下 降 趋 势 ， 但 在 


呈 上 升 趋势 ， 由 此 可 见 ， 疫 苗 研 究 热度 虽然 呈 下 降 趋势 ， 但 在 2017 


年 之 后 热度 有 所 回升 。 该 主题 的 学 科 交 叉 度 呈 上 升 趋势 ， 在 2005 年 学 科 交 叉 度 为 0.4095， 
成 为 学 科 交 叉 主 题 ，Immunology 和 Biochemistry && Molecular Biology 两 个 学 科 的 学 者 一 直 
在 重点 关注 疫苗 研究 。 结 合 2019 年 底 出 现 并 造成 疾病 大 流行 的 新 型 冠状 病毒 ， 世 界 各 国 加 
大 投入 资金 、 人员 等 各 方面 力量 ， 通 过 学 科 交 叉 和 跨 界 融合 ， 使 用 变革 性 技术 有 效 推动 疫苗 
研发 ， 大 大 缩短 疫苗 研制 周期 ， 成 功 研 发 出 多 类 型 的 新 冠 疫苗 ， 该 主题 强度 及 主题 学 科 交 又 
度 在 2019 年 都 出 现 增长 。 可 以 预测 ， 随 着 人 们 “以 预防 为 主 ” 的 健康 意识 的 觉醒 和 公共 卫 
生 事 件 的 发 生 ， 疫 苗 研究 的 热度 未 来 将 会 不 断 升 高 ， 有 望 成 为 研究 热点 。 

(3) 平稳 型 

平稳 型 主题 有 11 个 ， 包 括 : T2 转基因 药物 、T4 基因 克隆 技术 、T6 肿瘤 、T8 突 触 可 
塑性 、T12 转基因 动物 、T14 生物 遗传 、T15 植物 抗 病 性 、T16 植物 修复 技术 、T17 细胞 
凋 亡 、T18 肌 萎 缩 侧 索 硬 化 症 、T20 生物 体 免 疫 反应 。 其 中 ,“T4 转基因 克隆 技术 ”、“T15 
植物 抗 病 性 ”、“T12 转基因 动物 ”为 热点 主题 ， “T2 转基因 药物 ”、“T6 肿瘤 ”、“T8 
突 触 可 塑性 ”、“T11 植物 抗 虫 性 ”、“T14 生物 遗传 ”、“T18 肌 萎缩 侧 索 硬化 症 
“T20 生物 体 免 疫 反应 ”为 学 科 交 叉 主 题 ，“TI17 细胞 凋 亡 ” 为 热点 学 科 交叉 主题 。 选 择 
热点 学 科 交 叉 主题 “T17 细胞 凋 亡 ” 重 点 分 析 如 下 : 
细胞 凋 亡 指正 常 细胞 在 经 过 生理 性 或 病理 性 的 刺激 之 后 由 基因 控制 主动 性 死亡 的 过 程 。 
胞 凋 亡 主题 强度 一 直 处 于 较 高 的 水 平 ， 且 趋势 平稳 ， 主题 学 科 交 叉 度 稳 中 带 升 ， 意 味 着 该 
主题 一 直 是 学 者 们 关注 的 焦点 ,被 应 用 于 多 种 领域 。 由 于 细胞 凋 亡 过 程 中 整个 细胞 会 生成 含 
有 细胞 器 、\ 细胞 核 及 细胞 质 的 凋 亡 碎片 的 突起 , 然后 被 其 他 细胞 吞 唉 ,学 者 们 根据 这 一 特点 ， 
进一步 了 解 生 物体 内 的 细胞 ， 更 是 为 医学 、 发 育 、 畜 牧 业 等 领域 带 来 了 崭新 的 研究 方向 。 由 
此 可 以 看 出 , 细胞 凋 亡 研究 在 学 科 领 域 应 用 广泛 ， 帮助 多 个 学 科 攻 克 难 题 。 但 迄今 为 止 , 4 
胞 凋 亡 的 检测 方法 和 凋 亡 途径 等 仍 未 被 研究 透彻 , 为 了 更 彻底 地 了 解 细胞 凋 亡 机 制 , 更 有 效 
地 治疗 疾病 , 相关 学 科 的 学 者 们 将 持续 对 该 主题 保持 关注 , 尝试 对 细胞 凋 亡 进行 更 深入 的 而 
究 。 
4 结语 

本 研究 对 基因 工程 领域 主题 内 容 进行 了 挖掘 提取 , 利用 LDA 主题 模型 生成 的 主题 - 词 项 
概率 分 布 确定 出 21 个 重要 主题 ， 随 后 基于 主题 强度 和 主题 学 科 交 叉 度 闵 值 识别 出 了 基因 工 
程 热点 交叉 主题 并 进行 主题 分 析 。 对 文档 主题 按照 时 间 进 行 划 分 , 通过 计算 各 个 主题 在 不 同 
且 连 续 的 时 间 窗 口内 的 强度 和 学 科 交 叉 度 , 绘制 基因 工程 研究 主题 强度 和 学 科 交 叉 度 变化 趋 
势 图 ， 进 而 获得 主题 演化 趋势 。 本 研究 可 以 得 出 以 下 结论 : 

(1) 识别 学 科 领 域 热点 交叉 主题 。 使 用 LDA 模型 可 以 快速 获取 、 识 别 基因 工程 领域 
21 个 重点 主题 同时， 结合 Rao-Stirling 指数 测度 该 领域 主题 学 科 交 叉 度 可 从 海量 文献 中 快 
速 发 现 基因 工程 领域 2 个 热点 交叉 主题 , 该 方法 对 其 他 领域 的 热点 学 科 交 叉 主 题 研究 同样 有 具 
有 适用 性 。 


(2) 主题 强度 具有 动态 变化 性 。 从 主题 强度 来 看 ， 基 因 工 程 领域 热点 研究 主题 包括 ; 
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“转录 组 测序 技术 ”“ 基 因 死 隆 技 术 ” “阿尔 茨 海 默 症 ”“ 转 基因 动物 研究 ”“ 植 物 抗 病 性 
“细胞 凋 亡 ”和 “ 非 生物 胁迫 ”。 受 生物 、 信息 技术 不 断 发 展 或 突 发 疾病 及 政治 等 因素 影响 ， 
基因 工程 领域 在 不 同时 间 窗 口 主 题 热度 则 会 发 生 改变 , 相关 学 者 将 增加 或 减弱 对 主题 的 关注 
度 。 


(3) 基因 工程 领域 学 科 交 叉 融 合 程度 进一步 加 深 。 从 学 科 交 叉 度 来 看 ， 大 部 分 主题 学 
科 交 叉 度 呈现 上 升 趋势 ,当前 基因 工程 领域 盒 发 重视 学 科 交 叉 研 究 。 其 中 ,“ 阿 尔 茨 海 默 症 ” 
主题 强度 及 学 科 交 叉 度 持续 上 升 ， 越 来 越 多 的 学 科 投入 研究 ， 可 进一步 开展 深度 研究 ，“ 台 
胞 凋 亡 ”主题 强度 和 学 科 交 叉 度 平稳 处 于 较 高 水 平 ， 从 微观 水 平 揭示 生命 的 奥秘 持续 吸引 着 
众多 学 者 的 关注 。 

本 文 仍 存在 一 定局 限 性 , 在 根据 困惑 度 的 计算 结果 得 到 最 优 主题 数目 时 , 存在 由 于 主题 
数目 过 多 导致 主题 辨识 度 偏 低 的 风险 ， 通 过 使 用 LDA 主题 模型 获得 基于 每 个 主题 下 的 概率 
前 十 的 词 项 , 在 归纳 总 结 后 的 命名 结果 并 不 能 够 完全 概括 主题 下 的 所 有 内 容 , 会 存在 一 定 的 
偏差 ; 对 基因 工程 领域 主题 的 分 析 受 限于 时 间 和 专业 能 力 , 未 来 可 以 通过 阅读 文献 与 采访 领 
域内 专家 ， 进 一 步 加 深 热 点 交叉 主题 的 分 析 。 
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